在 RAG 的檢索階段,我們會取得數個與使用者問題相關的 chunk,並按照相似度排序。但問題是:
這就是企業常用的 二階段檢索流程:
Rerank 模型通常訓練成 相關性評分任務:
Cross-encoder 模型會將 Query 和 Document 拼接後,通過 Transformer 架構計算深層語義相關度,最後根據分數重新排序。
模型類型 | 工作方式 | 優點 | 缺點 | 適用場景 |
---|---|---|---|---|
Bi-encoder | Query & Document 各自編碼成向量 → 相似度比對 | 檢索快、可 ANN 加速 | 語義理解有限 | 初步檢索 |
Cross-encoder | 把 Query + Document 拼在一起 → Transformer 計算相關性 | 精度高、上下文理解強 | 計算成本高、無法預先索引 | Rerank 重排序 |
關鍵:企業常用 Bi-encoder + ANN 作粗修,再用 Cross-encoder 作精修。
使用相同的Bi-encoder進行檢索和重排。
Query → Bi-encoder 向量化 → ANN 索引檢索 → Top-100 候選 → Cross-encoder 重排 → Top-10 結果
使用不同的模型進行粗排和精排,優化各自的專長。
Query → 快速Bi-encoder → ANN 粗排 → Top-100 → 精確Cross-encoder → Top-10
多輪檢索,逐步精細化。
Query → ANN 檢索 → Top-1000 → 第一輪Rerank → Top-100 → 第二輪Rerank → Top-10
常見的檢索精度衡量方式:
實際提升幅度取決於數據集特性和應用領域,通常能帶來 10-30% 的精度提升。
高精度需求(法務、醫療)
├─ Cross-encoder 重排(可接受較高延遲)
一般業務需求
├─ 混合策略(平衡精度與速度)
高頻查詢場景(客服、搜尋)
└─ 快速 Bi-encoder(優先考慮速度)
Rerank 是讓 RAG 從「能用」到「好用」的關鍵技術:
成本效益分析:在什麼情況下,Rerank 帶來的精度提升值得額外的計算成本?
混合策略設計:如何設計一個能根據查詢類型自動選擇檢索策略的智能系統?